参数效率的方法能够使用单个冷冻的预训练的大语言模型(LLM)来通过学习特定于任务的软提示来执行许多任务,从而在串联到输入文本时调节模型行为。但是,这些学习的提示与给定的冷冻模型紧密耦合 - 如果模型已更新,则需要获得相应的新提示。在这项工作中,我们提出并调查了几种“提示回收”的方法,其中将在源模型上进行了及时培训以与新目标模型一起使用。我们的方法不依赖于目标模型的有监督的提示,特定于任务的数据或培训更新,这与从头开始的目标模型重新调整提示一样昂贵。我们表明,模型之间的回收是可能的(我们的最佳设置能够成功回收$ 88.9 \%的提示,从而产生一个提示,即表现出色的基线),但是剩下的大量性能净空,需要改进的回收技术。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
The outburst of COVID-19 in late 2019 was the start of a health crisis that shook the world and took millions of lives in the ensuing years. Many governments and health officials failed to arrest the rapid circulation of infection in their communities. The long incubation period and the large proportion of asymptomatic cases made COVID-19 particularly elusive to track. However, wastewater monitoring soon became a promising data source in addition to conventional indicators such as confirmed daily cases, hospitalizations, and deaths. Despite the consensus on the effectiveness of wastewater viral load data, there is a lack of methodological approaches that leverage viral load to improve COVID-19 forecasting. This paper proposes using deep learning to automatically discover the relationship between daily confirmed cases and viral load data. We trained one Deep Temporal Convolutional Networks (DeepTCN) and one Temporal Fusion Transformer (TFT) model to build a global forecasting model. We supplement the daily confirmed cases with viral loads and other socio-economic factors as covariates to the models. Our results suggest that TFT outperforms DeepTCN and learns a better association between viral load and daily cases. We demonstrated that equipping the models with the viral load improves their forecasting performance significantly. Moreover, viral load is shown to be the second most predictive input, following the containment and health index. Our results reveal the feasibility of training a location-agnostic deep-learning model to capture the dynamics of infection diffusion when wastewater viral load data is provided.
translated by 谷歌翻译
Machine Learning (ML) approaches have been used to enhance the detection capabilities of Network Intrusion Detection Systems (NIDSs). Recent work has achieved near-perfect performance by following binary- and multi-class network anomaly detection tasks. Such systems depend on the availability of both (benign and malicious) network data classes during the training phase. However, attack data samples are often challenging to collect in most organisations due to security controls preventing the penetration of known malicious traffic to their networks. Therefore, this paper proposes a Deep One-Class (DOC) classifier for network intrusion detection by only training on benign network data samples. The novel one-class classification architecture consists of a histogram-based deep feed-forward classifier to extract useful network data features and use efficient outlier detection. The DOC classifier has been extensively evaluated using two benchmark NIDS datasets. The results demonstrate its superiority over current state-of-the-art one-class classifiers in terms of detection and false positive rates.
translated by 谷歌翻译
鉴于大量具有相似属性但域不同的标记数据的可用性,域的适应性是一种有吸引力的方法。在图像分类任务中,获得足够的标签数据具有挑战性。我们提出了一种名为Selda的新方法,用于通过扩展三种域适应方法来堆叠合奏学习,以有效解决现实世界中的问题。主要假设是,当将基本域适应模型组合起来时,我们可以通过利用每个基本模型的能力来获得更准确,更健壮的模型。我们扩展最大平均差异(MMD),低级别编码和相关比对(珊瑚),以计算三个基本模型中的适应损失。同样,我们利用一个两双连接的层网络作为元模型来堆叠这三个表现良好的域适应模型的输出预测,以获得眼科图像分类任务的高精度。使用与年龄相关的眼病研究(AREDS)基准眼科数据集的实验结果证明了该模型的有效性。
translated by 谷歌翻译
在本文中,我们提出了XG-Bot,这是一种可解释的深层图神经网络模型,用于僵尸网络淋巴结检测。所提出的模型主要由僵尸网络检测器和自动取证的解释器组成。XG机器人检测器可以有效检测大型网络下的恶意僵尸网络节点。具体而言,它利用与图同构网络的分组可逆残差连接从僵尸网络通信图中学习表达性节点表示。XG机器人中的解释器可以通过突出可疑网络流和相关的僵尸网络节点来执行自动网络取证。我们评估了现实世界中的大规模僵尸网络网络图。总体而言,就评估指标而言,XG机器人能够超越最先进的方法。此外,我们表明XG机器人解释器可以基于自动网络取证的Gnnexplainer生成有用的解释。
translated by 谷歌翻译
本文研究了图形神经网络(GNNS)应用程序,以进行自我监督的网络入侵和异常检测。 GNN是一种基于图的数据的深度学习方法,它将图形结构纳入学习以概括图表和输出嵌入。由于网络流量自然基于图,因此GNN非常适合分析和学习网络行为。基于GNN的网络入侵检测系统(NIDSS)的最新实现很大程度上依赖于标记的网络流量,这不仅可以限制输入流量的数量和结构,还可以限制NIDSS的潜力来适应看不见的攻击。为了克服这些限制,我们提出了异常-E,这是GNN的入侵和异常检测方法,该方法在自我监督过程中利用边缘特征和图形拓扑结构。据我们所知,这种方法是第一种成功且实用的方法来进行网络入侵检测,该方法利用网络流动在自我监督,边缘利用GNN中。两个现代基准NIDS数据集的实验结果不仅清楚地显示了使用Anomal-E嵌入而不是原始功能的改进,而且还显示了对野生网络流量检测的潜在异常-E具有的潜在异常功能。
translated by 谷歌翻译
混响环境中的准确声音定位对于人类听觉感知至关重要。最近,卷积神经网络(CNN)已被用于对双耳人类听觉途径进行建模。但是,CNN显示出捕获全球声学特征的障碍。为了解决这个问题,我们提出了一种新型的端到端双耳音频谱图变压器(BAST)模型,以预测态和混响环境中的声音方位角。探索了两种模式的实现模式,即分别与共享和非共享参数的BAST模型相对应的BAST-SP和BAST-NSP。我们使用减法的模型和杂种损耗的模型在所有方位角都达到了1.29度的角度距离,均值为1E-3的均方根误差为1E-3,显着超过了基于CNN的模型。对BAST在左右半菲尔德和回荡环境中的表现的探索性分析显示了其泛化能力以及双耳变压器在声音定位中的可行性。此外,提供了注意图的分析,以提供有关自然混响环境中本地化过程的解释的更多见解。
translated by 谷歌翻译
本文涉及基于张量低秩分解框架的镜面反射去除,借助极化信息。我们的方法是通过观察到的,即图像的镜头亮点稀疏分布,而剩余的弥漫性反射可以通过使用低级别和稀疏分解框架的几种不同颜色的线性组合很好地近似。与当前的溶液不同,我们的张量低级别分解可以保持镜面和弥漫性信息的空间结构,从而使我们能够在强镜反射或饱和区域中恢复弥漫性图像。我们进一步定义并施加了新的极化正则项作为颜色通道的约束。这种正则化可以通过处理颜色失真来提高该方法的性能,以处理颜色失真,这是一个基于色度的方法的常见问题,尤其是在强烈的镜面反射的情况下。通过对合成图像和真实极化图像的全面实验,我们证明我们的方法能够显着提高突出显示镜面去除的准确性,并优于恢复弥漫性图像的竞争方法,尤其是在强烈的镜面反射区域或在饱和区域中。
translated by 谷歌翻译
von Neumann-Morgenstern(VNM)实用程序定理表明,在某些合理性的公理下,决策将减少以最大程度地提高某些效用函数的期望。我们将这些公理扩展到日益结构化的顺序决策设置,并确定相应的实用程序函数的结构。特别是,我们表明,无内存的偏好会导致以每次过渡奖励和未来回报的乘法因素的形式产生实用性。该结果激发了马尔可夫决策过程(MDP)的概括,并在代理的申报表上使用此结构,我们称之为Affine-Reward-Reward MDP。需要对偏好的更强限制来恢复MDP中常用的标量奖励总和。尚未更强的约束简化了目标寻求代理的效用功能,以我们调用潜在功能的状态的某些函数的差异形式。我们的必要条件揭示了奖励假设,即通过在VNM理性公理中添加公理,并激发了涉及顺序决策的AI研究的新方向,从而使理性代理在增强学习中的设计构成了奖励假设。
translated by 谷歌翻译